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摘 要 : 新 视角 图 像 生 成 任务 指 通过 多 幅 参 考 图 像 ， 生 成 场景 新 视角 图 像 。 然 而 多 物体 场景 存在 物体 间 遮 挡 ， 物 
体 信 息 获 取 不 人 全， 导致 生成 的 新 视角 场景 图 像 存在 伪 影 ， 错 位 问题 。 为 解决 该 问题 ， 提 出 一 种 借助 场景 布局 图 指 
导 的 新 视角 图 像 生 成 网 络 ， 并 标注 了 全 新 的 多 物体 场景 数据 集 (Multi-Objects Novel View Synthesis，MONVS)。 首 先 ， 
将 场景 的 多 个 布局 图 信息 和 对 应 的 相机 位 姿 信 息 输 入 到 布局 图 预测 模块 ， 计 算出 新 视角 下 的 场景 布局 图 信息 ; 然 
后 ， 利 用 场景 中 标注 的 物体 边界 框 信息 构建 不 同 物体 的 对 象 集合 ， 人 和 借助 像素 预测 模块 生成 新 视角 场景 下 的 各 个 物 
体 信 息 ; 最 后 ， 将 得 到 的 新 视角 布局 图 和 各 个 物体 信息 输入 到 场景 生成 器 中 构建 新 视角 下 的 场景 图 像 。 在 MONVS 
和 ShapeNet Cars 数据 集 上 与 最 新 的 几 种 方法 进行 了 比较 ， 实 验 数 据 和 可 视 化 结果 表明 ， 在 多 物体 场景 的 新 视角 图 
像 生 成 中 ， 所 提 方 法 在 两 个 数据 集 上 都 有 较 好 的 效果 表现 ， 有 效 地 解决 了 生成 图 像 中 存在 伪 影 和 多 物体 在 场景 中 
的 位 置信 息 不 准确 的 问题 。 
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Multi-object scenes novel view synthesis via layout projection 
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Abstract: The task of Novel View Synthesis refers to generating a new perspective image of the scene through multiple 
reference images. However, there are occlusions between objects in multi-object scenes, and object information cannot be 
fully obtained, resulting in artifacts and dislocation problems in the generated new-view scene images. In order to solve this 
problem, this paper proposes a new perspective image generation network guided by the scene layout map, and annotates a 
new multi-object scene dataset. (Multi-Objects Novel View Synthesis, MONVS) . First, input multiple layout information of 
the scene and the corresponding camera pose information into the layout prediction module, and calculate the layout 
information of the scene under a new perspective; Then, use the bounding box information of the objects marked in the scene 
to construct an object set of different objects, and use the pixel prediction module to generate the information of each object 
in the new perspective scene; Finally, input the obtained new perspective layout and various object information into the scene 
generator to construct a scene image under the new perspective. Compared with the latest methods on the MONVS and 
ShapeNet Cars data sets, Experimental data and visualization results show that in the new perspective image generation of 
multi-object scenes, the method in this paper has good performance on both data sets. Effectively solve the problem of artifacts 
in the generated image and inaccurate position information of multiple objects in the scene. 
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随 着 深度 学 习 的 发 展 ， 文 献 [2] 利 用 卷 积 网 络 生 成 刚性 物体 
的 新 视角 图 像 ,但 是 仅 利 用 卷 积 网 络 无 法 生成 物体 的 细节 信 
新 视角 图 像 生成 (Novel View Synthesis, NVS) 任 务 是 在 给 。 息 且 生成 图 像 轮 廓 模糊， 之 后 的 工作 将 物体 的 先 验 知识 加 入 

定 多 幅 输 入 图 像 和 对 应 相机 位 姿 情 况 下 ， 生 成 物体 或 场景 任 。 ”模型 训练 中 ， 取 得 较 好 的 效果 。 以 物体 的 几何 先 验 E% 作 为 
日 

云 

角 


意 视 角 的 图 像 。 该 任务 在 虚拟 现实 技术 、 机 器 人 技术 、 静 态 。 指导 ， 将 输入 图 像 的 像素 值 ， 根 据 物体 的 几何 形状 或 3D 点 

图 像 动画 制作 等 方面 有 着 广泛 的 应 用 。 因 其 避免 了 在 生成 任 EAB, PEA Ei E BRE o EIRT ME TE B A HIN 

意 视角 图 像 过 程 中 构建 复杂 三 维 模型 ， 提 升 了 生成 效率 ， 引 图 像 生成 中 取得 了 良好 效果 ， 但 是 ， 在 更 加 真实 的 多 物体 

起 了 学 者 的 广泛 关注 。 场景 中 ， 由 于 将 场景 看 做 是 一 个 整体 外 ， 当 场景 中 物体 间 存 
其 


的 新 视角 图 像 生成 方法 是 基于 相机 成 像 的 相关 知识 ，“ 在 遮挡 现象 时 ， 模 型 无 法 提取 被 遮挡 物体 的 特征 ， 也 无 法 学 
间或 光线 空间 中 利用 插值 的 方法 生成 新 视角 图 像 趾 。 习 其 几何 信息 ， 导 致 生成 的 图 像 出 现 模 糊 和 伪 影 等 错误 ， 甚 


在 像素 空 
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至 会 出 现 物体 丢失 的 现象 。 该 现象 如 图 1(a) 所 示 。 为 了 解决 
伪 影 问题 ， 文 献 [9] 利 用 深度 图 作为 先 验 信息 ， 指 导 网 络 生 
成 场景 的 新 视角 图 像 ， 但 深度 图 的 获取 需要 精密 的 仪器 ， 并 且 
深度 图 无 法 改善 由 于 多 物体 之 间 遮 挡 导 致 的 边界 模糊 现象 。 
相 较 于 深度 图 ， 包 含 图 像 中 所 有 物体 类 别 和 边界 框 的 布 
局 图 090， 更 容易 获取 。 受 布局 图 生成 图 像 工 作 的 启发 ， 本 


高 小 天 ， 等 : 基于 布局 图 的 多 物体 场景 新 视角 图 像 生 成 网 络 


根据 新 构建 的 布局 图 
成 图 像 网 络 进一步 优 
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息 生 成 图 像 。 最 新 的 工作 ， 对 布局 图 生 
59， 通 过 从 源 视图 中 估计 出 整个 场景 


会 ex ur 


的 布局 图 ， 


作为 约束 ， 


以 深度 信 ， 生成 房间 的 平面 图 。 


受到 这 种 改变 布局 图 生成 图 像 模型 的 启发 ， 考 虑 随 着 视 
角 变 化 ， 物 体 的 相对 位 置 和 边界 框 也 发 生变 化 。 根 据 这 种 对 
应 关系 ， 从 已 知 视角 下 的 场景 布局 图 推导 新 视角 下 的 场景 布 


文 提 出 一 种 以 场景 布局 图 作为 先 验 信息 的 新 视角 图 像 生 成 网 
络 ， 如 图 1(b) 所 示 。 与 之 前 提出 的 其 他 基于 深度 学 习 的 新 视 
角 图 像 生成 方法 相 比 ， 不 需要 获取 复杂 的 场景 深度 图 和 点 云 
言 息 ， 并 且 本 文 方法 可 以 应 用 在 多 物体 场景 中 。 

首先 根据 场景 中 不 同 视角 下 的 布局 图 信息 ， 计 算出 场景 
中 各 个 物体 的 旋转 轨迹 ， 通 过 目标 相机 和 输入 相机 之 间 的 位 
姿 关 系 ， 得 到 新 视角 下 图 像 的 布局 图 ， 有 效 解 决 了 由 于 遮挡 
导致 生成 图 像 中 物体 位 置 不 准确 的 问题 。 基 于 布局 图 信息 ， 
对 整个 场景 进行 裁剪 ， 将 多 物体 新 视角 图 像 生成 任务 转换 成 
多 个 单 物体 的 新 视角 生成 任务 。 为 保证 生成 的 单 物体 图 像 的 
细节 完整 ， 使 用 像素 预测 器 使 模型 随 着 输入 图 像 的 变换 逐步 
改善 其 生成 结果 。 最 后 根据 计算 得 到 新 视角 布局 图 这 一 
盲 息 指 导 场 景 生成 器 生成 整个 场景 的 图 像 。 


ms 


输入 输出 输入 葡 出 
Uu i v— t i NL. 
Uga > ga | => s^ 
布局 图 
(a) 已 有 方法 {b) 本 文 方法 
图 1 方法 对 比 
Fig.1 Method comparison 
1 ”相关 工作 


1.1 布局 图 生成 图 像 
使 用 附加 信息 (例如 类 别 信息 、 文 本 描述 (站 、 场 景 
图 ) 作为 先 验 知识 输入 网 络 来 指导 网 络 生 成 图 像 是 目前 图 像 
生成 的 主要 做 法 之 一 。 然 而 ， 如 深度 图 等 先 验 信息 往往 受 各 
种 条 件 的 约束 ， 难 以 获取 。 因 此 ， 一 些 工 作 引 入 了 易 获 取 的 
布局 图 作为 先 验 知 识 。 
在 文献 [10] 中 ， 布 局 图 和 对 象 信息 被 用 于 文本 生成 图 
和 场景 图 生成 图 像 的 任务 中 。 通 过 将 对 象 的 形状 与 存储 库 中 
的 特征 进行 匹配 ， 从 给 定 的 布局 图 中 生成 新 的 场景 图 像 。 文 
献 [14] 提 出 了 一 种 可 以 改变 图 像 布局 和 对 象 风 格 的 方法 ， 通 
过 改变 布局 图 中 边界 框 的 大 小 和 移动 边界 框 ， 重 构 整 个 布局 图 ， 
布局 图 预测 模块 


Z] 


局 
1.2 


新 视角 图 像 生成 是 指 通过 
的 情况 下 ， 生 成 物体 或 场景 的 任意 视角 下 的 新 图 像 。 


， 用 来 指导 新 视角 图 像 的 生成 。 


新 视角 图 像 生成 


给 定 多 幅 输入 图 像 和 相机 位 姿 


里 想 ， 


早先 的 一 些 工作 中 
输入 图 像 的 像素 通过 映射 或 插值 的 方法 
中 ， 但 是 这 种 方法 生成 图 像 在 细 
F 


[3][4]， 是 基于 物体 的 几何 形状 ， 将 
扭曲 到 新 视角 图 像 
而 的 泻 染 效果 并 不 
随 着 深度 学 习 的 


Ha 
并 且 无 法 生成 源 视图 中 缺失 的 像素 ; 


发 展 ， 


文献 [2] 通 过 卷 积 神经 网 络 ， 根 据 源 视图 直接 生成 新 


源 去 


视角 图 像 ， 这 种 方法 在 单一 刚性 物体 (如 椅子 ， 汽 车 等 ) 的 数 
据 集 上 取得 了 不 错 的 效果 ， 
了 解决 像素 缺失 问题 ， 
成 模块 组 成 的 网 络 ， 
到 新 视角 图 像 中 ， 
以 一 种 自学 习 置 
对 物体 细节 纹理 
作 以 图 像 的 深度 图 9 和 图 像 的 3D 结构 作为 先 验 知识 EC9， 将 源 
图 像 中 的 像素 映射 到 目标 图 像 中 1;， 还 
过 重 构 场景 或 者 物体 的 3D 几何 形状 ， 
立 姿 为 约束 ， 生 成 图 像 ， 但 是 这 种 方法 需要 大 量 的 时 间 和 资 


但 同样 无 法 生成 缺失 的 像素 ;为 
Sun 等 0 提出 光 流 预测 模块 和 像素 生 
通过 光 流 预测 将 输入 图 像 中 的 像素 映射 
像素 预测 模块 根据 输入 图 像 生成 缺失 像素 ， 
言 聚合 的 机 制 生成 新 视角 图 像 ， 但 是 这 种 方法 
的 泻 染 仍 不 理想 ， 随 着 深度 图 的 发 展 ， 一 些 工 


154) T fg? 
再 以 新 视角 处 的 相机 


进行 训练 ; Mildenhallc 等 提出 神经 辐射 场 (Neural 


Radiance Fields, NeRF) 这 一 全 新 的 网 络 用 来 实现 新 视角 图 像 
的 生成 。 


使 用 一 个 


该 方法 空间 三 维 坐标 和 观看 方向 组 成 的 


EG PU QU rT sie dia 


在 复杂 场景 


， 取 得 了 很 好 的 效果 。 但 是 NeRF 需要 大 量 的 输 


en 


的 场景 ， 
pixelNeRF 网 络 ， 能 够 使 用 少 


泛 化 能 力 很 差 ，Yu 等 中] 对 该 方法 进行 了 优化 ， 提 出 
量 的 输入 图 像 完 成 场景 的 重建 ， 


mi 
my 


在 训练 时 间 和 泛 化 性 上 取得 了 良好 的 进展 ， 但 依然 无 法 解决 场 
景 中 物体 间 遮 挡 导致 的 生成 图 像 中 存在 伪 影 的 问题 。 


2 


在 本 节 中 ， 介 绍 本 文 提出 的 基于 布局 图 的 多 对 象 场景 新 
视角 图 像 生成 方法 。 将 布局 图 预测 模块 得 到 的 新 视角 的 布局 


布局 图 指导 新 视角 图 像 生 成 方法 


图 信息 和 像素 预测 器 生成 的 各 个 物体 的 新 视角 图 像 输入 场景 


生成 器 ， 生 成 新 视角 下 的 场景 图 像 。 整 体 架构 如 图 2 所 示 。 


SP. 


解码 器 


/ WR Aae 
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图 2 网络 结构 图 


Fig.2 Network structure diagram 


输入 多 幅 图 像 了 及 其 相应 的 布局 图 及, 其 中 
L, - ox vohis ws) 包括 第 幅 图 像 的 中 每 个 对 象 2 的 边界 框 信 


息 ( 左 


预测 模块 ， 计 算 新 视 


"x 


EHER, 高 度 ， 宽度 )， 将 多 个 布局 图 输入 布局 
下 的 布局 图 二 ;模型 对 输入 图 像 中 的 
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每 个 对 象 实例 0; 进行 采样 ， 再 和 相机 位 姿 矩阵 沿 通道 方向 可 以 看 做 是 沿 着 一 个 椭圆 的 轨迹 运动 的 。 对 单 物体 假设 其 初 
连接 构建 输入 张 量 。 将 构建 的 张 量 输入 像素 预测 器 得 到 新 视 始 轨迹 椭圆 f 7g: Ax +By +Cxy+Dx+Ey+F=0, Hth A, B, 
角 下 的 各 个 物体 的 图 像 i; 最 后 ， 将 5 和 7i 输 入 场景 生成 C, D, E. F 是 椭圆 的 参数 ， 利 用 Faster-RCNN 目标 检测 方 


[ram 


嚣 中， 物体 图 像 依次 经 过 编码 器 和 融合 器 ， 得 到 一 个 包含 ”法 得 到 输入 图 像 的 布局 信息 ， 可 以 通过 多 幅 图 像 的 布局 图 来 
所 有 物体 信息 的 融合 特征 ， 通 过 解码 器 生成 场景 图 像 。 计算 上 述 椭圆 的 每 个 系数 。 
2.1 布局 图 预测 模块 将 输入 图 像 对 应 的 布局 图 输入 布局 图 预测 模块 中 ， 得 到 


借助 相机 标定 P4-29， 将 多 幅 输入 图 像 中 的 物体 映射 到 ”各 个 物体 的 运动 轨迹 并 计算 新 视角 下 的 布局 图 ， 布 局 图 预测 
同一 世界 坐标 系 中 ， 则 同一 物体 在 相机 移动 拍摄 的 过 程 中 ， 架构 如 图 3 所 示 。 


PJ 会 物体 动 迹 "ns t deh yy ier an | 
输入 布局 EU MM BEAMERI GHRRATEDDME ce 
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cuboid l 
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mag e e E 


图 3 布局 图 预测 框架 
Fig.3 Layout prediction framework 


布局 图 信息 按照 物体 类 别 2 构建 边界 框 集 合 值 ， 从 源 图 像 中 预测 目标 图 像 中 缺失 的 像素 ， 保 留 了 场景 中 
L, = {xi yh his wi} 得 到 边界 框 中 心 坐 标 集 合 各 个 物体 的 细节 纹理 ， 通 过 布局 图 中 包含 的 对 象 类 别 信息 对 
Wo HCM 物体 的 几何 形状 进行 约束 ， 使 得 生成 图 像 的 结构 保持 一 至 
xitwi, yi+ hd ， it- wi, yit M) ， aenean ， 使 用 最 小 二 . K 
2 2 2 2 它 是 一 种 编码 器 -解码 器 类 型 的 网 络 ， 在 瓶颈 层 中 使 用 卷 积 


乘法 拟 合 公式 曲线 f ， 求 解 椭圆 参数 A, B, C, D, E, Fo 长 短 时 记忆 模块 (Convolutional Long-Short-Term Memory , 
于 场景 中 存在 遮挡 ， 使 得 标注 出 的 物体 边界 框 存在 误 ConvLSTM)， 将 卷 积 层 中 提取 到 的 信息 通过 ConvLSTM fe 
差 。 为 修正 轨迹 和 物体 边界 框 误 差 ， 提 出 一 种 迭代 计算 的 方 递 到 对 应 的 反 卷 积 层 中 ， 使 得 获取 的 信息 更 丰富 。 

法 进行 边界 框 的 修正 和 轨迹 方程 的 优化 。 首 先 ， 计 算 边 界 框 多 视角 输入 图 像 通过 像素 预测 器 各 自生 成 新 视角 下 的 图 
中 心 坐 标 和 轨迹 曲线 了 之 间 的 最 短 距 离 4 ， 与 设置 的 阀 值 比 像 ， 再 将 所 有 的 图 像 以 均值 聚合 ， 最 终生 成 目标 图 像 。 细 节 
较 ， 判 定 出 需要 修正 的 边界 框 中 心 坐 标 。 需 要 修正 的 坐标 每 如 图 4 所 示 。 首 先 使 用 独 热 编 码 (One-Hob 将 输入 视角 的 离散 
次 以 d2 的 步 长 向 轨迹 曲线 逼近 。 然 后 ， 每 一 次 更 新 后 的 坐 相机 位 姿 进行 矢量 化 处 理 ， 根 据 拍摄 场景 的 相机 总 数 %*， 编 
标 中 心 点 ， 计 算 与 上 一 次 边界 框 四 个 顶点 坐标 的 距离 ， 以 最 码 成 4 维 元 素 的 矢量 ， 计 算 输 入 视角 当前 相机 位 姿 2 和 目 
大 值 为 约束 ， 对 边界 框 进行 扩充 。 得 到 更 新 后 的 边界 框 。 最 标 位 姿 了 之 间 的 差 值 Bw ; 将 PB 输入 网 络 ， 沿 空间 维度 平 铺 


后 ， 更 新 的 坐标 重复 上 述 的 操作 ， 进 行 和 迭代 训练 ， 得 到 ds。 Pu 获得 输入 的 位 姿 张 量 Pus eR ， 其 中 v 表 示 位 姿 向 量 的 
最 优 解 。 目 标 函数 4 表示 如 下 ， 维度 。 然 后 ， 根 据 获取 的 边界 框 A 对 输入 图 像 进 行 裁剪 ， 
NE rp ay 根据 物体 类别 获取 1 组 图 像 上 ， 对 其 进行 双 线性 插值 与 位 次 
xdi a E 量 Po 沿 着 通道 数 连接 ， 最 后 输入 到 像素 预测 器 。 像 素 预 

Kr, f. f 是 椭圆 轨迹 上 的 点 集合 。 测 过 程 可 以 表示 为 
一 般 来 说 ， 同 一 物体 的 边界 框 大 小 和 距 相机 距离 呈 线 性 Jy =P SP) 6) 
关系 。 将 拟 合 出 的 轨迹 曲线 分 为 左右 两 个 部 分 。 左 右 两 个 部 其 中 ， PO 表示 像素 预测 器 ， 尹 是 输入 图 像 的 预测 图 像 ，。 


分 的 顶 圆 轨迹 上 ， 物 体 中 心 坐 标的 > 值 与 物体 边界 框 的 宽 高 。 表示 沿 着 通道 方向 进行 Concat 操作。 预测 结果 如 图 5 所 示 ， 
分 别 呈 规律 分 布 ， 即 对 象 坐 标 越 接近 椭圆 的 下 半圆 时 ， 表 示 ShapeNet 数据 集 通过 基于 特征 的 方法 得 到 的 预测 结果 ， 只 
对 象 距离 拍摄 的 位 置 越 近 ， 对 象 的 边界 框 越 大 ， 反 之 ， 边 界 ”能 生成 汽车 的 轮廓 ， 却 无 法 保留 汽车 的 细节 纹理 ;而 通过 基 


框 越 小 。 为 了 计算 出 场景 在 新 视角 下 的 布局 图 信息 ， 将 修正 于 像素 的 方法 得 到 的 预测 结果 ， 汽 车 的 细节 纹理 也 被 完整 的 
后 的 边界 框 与 相机 位 姿 信息 通过 坐标 系 转换 的 方法 ， 构 建 两 生成 。 
者 之 间 的 关系 ， 表 示 如 下 ， Lar 通过 所 有 预测 图 像 ;聚合 生成 ， 像 素 生 成 器 被 训 
y=kw+b, 练 成 最 小 化 以 下 等 式 ， 
se e 1x 
x i ' " L, 2 Mas l, (4) 
EBRES k, b, k, b, AH ATX f A HAHN Ns 
姿 对 应 坐标 计算 出 新 视角 下 物体 对 应 的 边界 框 。 2.2.2 场景 生成 器 
2.2 ”基于 布局 图 生成 新 视角 图 像 将 经 过 像素 预测 器 后 ， 预 测 生成 的 物体 图 像 与 边界 框 
2.2.1 像素 预测 器 L, 构建 对 象 特征 图 五 ， 输 入 场景 生成 器 生成 新 视角 下 的 场 
现 有 的 布局 图 生成 图 像 方法 通常 通过 卷 积 网 络 提取 特征 。 景 图 像 。 对 象 类 别 ”首先 通过 Word Embedding 进行 编码 ， 
的 方式 生成 图 像 ， 但 是 这 种 方法 往往 只 关注 图 像 纹 理 的 转移 ， 然后， 将 类 别 编码 y 与 对 象 特征 Zz, 串联 起 来 ， 填 充 在 对 象 
图 像 的 细节 和 物体 的 几何 形状 无 法 完整 的 保留 下 来 。 为 了 解 边界 框 Ly W, 


决 这 个 问题 ， 本 文 引 入 一 个 像素 预测 器 ， 通 过 直接 回归 像素 F =L 80; D2) (5) 


202204.00031 v1 


chinaXiv 


高 小 天 ， 等 


息 复制 到 边界 
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其 中 ， @ 表示 矢量 连接 算 ，@ 表示 将 对 象 信 
框 内 。 

为 了 将 所 有 对 象 实例 编码 在 期 望 的 位 置 ， 在 场景 生成 器 
中 的 解码 器 之 后 ， 加 入 一 个 多 层 卷 积 长 短 时 记忆 网 络 用 来 融 


等 : 基于 布局 图 的 多 物体 场景 新 视角 图 像 生成 网 络 


较 。 具 体 表示 为 
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L- È. -Zl 
像素 预测 器 生成 的 各 个 物体 图 像 在 场景 生成 器 的 融合 


合 采 样 得 到 的 对 象 特征 ， 最 终 输 出 一 个 融合 后 的 隐藏 布局 图 
H ,其 中 包含 所 有 对 象 的 位 置 ， 类 别 和 特 行 隐藏 布局 
TETN 解码 器 生成 目标 图 像 。 

为 了 引导 场景 生成 器 中 编码 器 、 对 象 融合 器 、 解 码 器 能 
够 合成 真实 的 图 像 ， 防 止 融合 生成 的 隐藏 布局 图 瑟 出 现 特 征 
丢失 。 使 用 相同 边界 框 Ly 来 裁剪 生成 的 图 像 kw 得 到 单个 物 
体 图 像 攻 ， 将 如 输入 到 潜在 代码 估计 器 ， 获 得 物体 的 估计 
平均 值 和 方差 向 量 ， 然 后 直接 使 用 计算 出 的 平均 向 量 作为 区 
归 的 潜在 代码 Zs, 


FE 信息 。 


(FH is 


将 其 与 像素 预测 器 输出 的 值 Za 进行 比 


程 中 ， 由 于 边界 框 之 间 的 重 受 
景 图 像 中 存在 伪 影 
采用 基于 VGG-19 网 络 的 感知 损失 (Perceptual Loss)P7281， 


生成 的 


知 损失 定义 如 下 : 
Le ls) m 


EL rH 


网 络 的 0，2，3 
VGG-19 的 j 中 间 层 的 输出 。 


----* 跳跃 链接 


图 4 像素 预测 器 


Fig.4 Pixel predictor 


3 ”实验 结果 分 析 


本 文 实验 使 用 PyTorch 深度 学 习 框 架 ， 实 验 环 境 为 
Ubuntu16.04 操作 系统 ， 使 用 4 块 NVIDIA 1080Ti 的 图 像 处 
理 器 (GPU) 加 速 运算 。 


源 图 像 特征 预测 像素 预测 GT 
£^. RY 
-—— dox o ce 


cm» cpi Py A so Sewo 
图 5 ShapeNet 数据 集 像素 预测 结 
Fig.5 Shapenet dataset pixel prediction results 
实验 数据 集 
为 了 满足 多 物体 场景 下 新 视角 图 像 生成 任 
相机 角度 


3.1 


dini 构 


108* 36° 


144° 


MONVS 
Blender 


MONVS 
Real 


建 两 个 不 同 难度 的 数据 集 。 


问题 。 为 了 解 六 


，j 是 VGG-19 的 中 间 层 代号 ， 本 文 使 月 
层 提 取 的 特征 ， 
CHW, J $0) 的 通 


一 个 数据 集 是 
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(6) 


(现实 场景 中 E 


y %09- Dige) 


bO 表示 


Target 


拍摄、 


这 个 问题 ， 本 文 


4 gi E 


2 


2 0) 


的 是 VGG-19 


输入 图 像 经 过 


标注 的 全 新 的 


数据 集 (Muliti Objects Novel View Synthesis Blender/Real, 


MONVS Blender/Real)。 男 一 个 数据 集 


成 多 物体 场景 。 


MONVS Blender/Real 数据 集 包 含 两 部 分 ， 
另 一 部 分 为 MONVS Real. 
的 几何 体 ， 从 10 种 颜色 中 
取 泻 染 物体 且 物 体位 置 随机 分 布 ， MONVS Real 


MONVS Blender， 


Blender 数据 集 包 含 不 同类 别 


随机 


ShapeNet 中 的 对 象 合 


MONVS 


数据 集中 从 10 个 不 同类 别 的 真实 物体 中 随机 抽取 3 个 ， 


单一 颜色 板 作为 背景 ， 第 


作为 背景 


二 个 数据 集 由 
象 合成 ， 从 10 种 不 同 的 车 型 种 随机 抽取 3 


选取 10 个 位 置 放置 相机 ， 


以 回 


H IR o 


ShapeNet 中 的 对 


辆 车 ， 双 色 板 
定 的 仰角 获取 


场景 图 像 。 每 个 数据 集 各 100 个 场景 ， 包 含 1000 dE 
像 。 所 有 图 像 的 分 辨 率 均 为 64X64。 数 据 集 中 的 随机 样 


jn 


-36* -72°  -108* -144° 


-180* 


"am. "LESION? em 


ro 
Pah mol EE 


— 7 9m 0 S BP uno Wh ch e^. 


图 像 示例 


Fig.6 Data set image example 


合 人 类 的 感知 情况 。LPIPS 的 值 越 低 表示 两 张 图 像 越 相似 ， 


ShapeNet 
Cars 
图 6 数据 外 
3.2 实验 结果 分 析 
本 文采 用 常用 的 结构 相似 性 (SSIM)、 峰 值 信 品 比 (PSNR) 


和 感知 相似 度 (LPIPS) 对 生成 图 像 进行 质量 评估 用 以 定 

感知 相似 度 (LPIPS) 是 近 几 年 提出 的 一 个 新 的 图 像 评价 
指标 ， 用 于 度量 两 张 图 像 之 间 的 差别 。 该 度量 标准 学 习 生 成 
图 像 到 Ground Truth 的 反 向 上 映射， 强制 生成 器 学 习 从 假 图 像 
中 重 构 真 实 图 像 的 反 向 映射 ， 并 优先 处 理 它们 之 间 的 感知 相 
以 度 。LPIPS 比 传统 方法 (比如 L2/PSNR, SSIM, FSIM) 更 符 


量 分 析 。 


Q8 e p A 


反之 ， 则 差异 越 大 。 计 算 公式 如 下 : 
d(x, xy) ^ s 2 wi © GL. — Sin l (8) 
LASER: 首先 ， 训 练 过 程 中 ， 将 真实 图 像 和 生成 图 


V5 os 送 入 神经 网 络 (一 般 为 训练 好 的 VGG19 模型 ) 中 进行 特征 
提取 ， 对 第 1 层 的 特征 进行 激活 后 归 一 化 处 理 得 到 
然后 ， 利 用 向 量 weR% 缩放 激活 通 


o OL HixWixC 
5, y e Rew ; 


道 并 计算 


202204.00031 v1 


chinaXiv 


录用 定稿 


距离 (w 是 训练 权重 参数 )， 


道上 求 和 。 


采用 时 间 复 杂 度 衡量 每 种 方法 复杂 度 的 指标 ， 即 通过 计 
算 模型 的 浮 点 运算 量 (Floating-point Operations, FLOPs). 
FLOPs 值 越 大 ， 模 型 越 复 杂 ， 反 之 模型 越 简单 。 
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高 小 天 ， 等 ; 基于 布局 图 的 多 物体 场景 新 视角 图 像 生 成 网 络 
最 后 ， 在 空间 上 求 平均 值 ， 在 通 


中 的 各 物体 之 间 的 背景 产生 空洞 。SVNVS 通过 
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输入 图 像 以 


自 监督 的 方式 获取 深度 概率 密度 估计 ， 来 指导 网 络 生成 新 视 


由 于 之 前 的 工作 没有 与 本 文 工 作 相同 的 设置 ， 
比方 法 的 网 络 训练 中 只 提供 多 视角 的 图 像 和 相机 位 姿 。 
经 过 测试 ， 当 输入 图 像 为 6 幅 时 ， 轨 迹 方程 拟 合 的 准确 
率 和 时 间 为 最 佳 。 
图 像 分 辨 率 ， 对 于 每 个 数据 集 各 随机 选择 800 幅 图 像 用 
日 作 测 试 。 给 出 了 本 文 方法 和 最 新 的 使 
用 多 视图 生成 新 视角 的 方法 TB-network[29]、 
main SYNVS[41 的 定量 结果 比较 。 

图 7~9 中 展示 了 本 文 的 方法 和 其 他 最 新 的 使 用 多 视角 图 
像 作 为 输入 的 NVS 的 方法 的 可 视 化 结果 。 
在 多 物体 场景 中 进行 大 视角 转换 的 几 个 具有 挑战 性 的 示例 。 
uORF-main 方法 将 单 物体 的 3D 表示 和 深度 推理 网 络 相 结合 ， 
通过 隐 式 搭建 三 维 模型 的 方法 实现 新 视角 图 生成 任务 ， 
uORF-main 很 难 从 输入 图 像 中 推测 出 目标 视图 中 各 个 物体 的 
对 应 关系 。 如 图 7-9 乡 


作 训 练 ，200 iH 


因此 在 对 


在 三 个 数据 集 上 ， 实 验 了 64X64 的 


uORF- 
和 颜色 相对 清晰 ， 其 次 ， 
间 没 有 因为 视角 的 转换 而 生成 空 


这 些 结果 涉及 到 


(PSNR) 和 感知 相似 度 (LPIPS) 的 结 


结果 中 的 第 3，4 列 ， usan ek 


角 图 像 ， 但 是 在 处 理 大 视角 转换 时 ， 物 体 变化 较 大 ， 
像 的 深度 图 无 法 通过 输入 图 像 的 深度 图 准确 生成 ， 导 致 其 网 
络 生成 图 像 中 物体 与 物体 之 间 的 边界 不 清晰 。 例 如 图 7~9 结 
果 中 的 第 7、8 列 ， 当 目标 视角 与 输入 视角 相差 过 大 时 ， 各 
个 物体 的 边界 模糊 ， 无 法 生成 准确 的 图 像 。 

相 比 之 下 ， 本 文 的 方法 通过 场景 的 布 
生成 新 视角 下 的 场景 图 像 ， 不 需要 搭建 场景 的 三 维 结构 ， 不 
依赖 输入 图 像 的 深度 图 ， 可 以 很 好 的 恢复 物体 与 物体 和 物体 
与 背景 之 间 的 关系 ， 生 成 的 图 像 更 加 清晰 真实 。 首 先 ， 本 文 
方法 在 布局 图 信息 的 约束 下 ， 生 成 的 图 像 中 各 个 物体 的 形状 
引入 感知 损失 ， 使 得 物体 与 背景 之 
洞 和 伪 影 。 
本 文 的 方法 在 多 物体 存在 的 场景 下 生成 图 像 的 真实 性 ， 对 图 
7-9 中 生成 的 结果 进行 定性 分 析 ， 结 果 如 表 1 所 列 。 当 输入 
图 像 的 个 数 相同 时 ， 本 文 的 方法 与 其 他 多 视图 生成 新 视角 方 
法 在 多 物体 场景 数据 集 上 的 结构 相似 性 (SSIM), 峰 值 信 噪 比 
十 果 都 是 最 好 的 。 在 FLOPs 
对 比 上 ， 本 文 相 较 于 其 他 三 种 模型 有 明显 提升 ， 这 是 由 于 本 


目标 图 


局 图 信息 指导 网 络 


为 了 进一步 证 明 


在 多 物体 场景 中 时 ， 无 法 生成 场景 中 物体 的 清晰 图 像 ; 文 提 出 的 网 络 不 需要 进行 3D 信息 的 估计 (如 深度 图 和 体 素 )， 


o2 0o cR DU 


素 信 息 ， 利 用 三 维 


重建 的 方法 生成 新 视角 图 像 ， 但 是 TB- 


network. 无 法 较 好 的 生成 背景 信息 ， 


容易 产生 空 


洞 。 例 如 图 7-9 结果 中 的 第 S，6 列 ， 生 成 图 像 


体 的 位 置 。 


因此 许多 背景 细节 丢失 ， 


计 和 隐 式 三 维 结构 的 方案 。 
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图 7  MONVS Blender 数据 集 对 比 实验 结 
Fig.7 MONVS Blender data set comparison experiment results 
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图 8 MONVS Real 数据 集 对 比 实验 结 


Fig.8 MONVS Real data set comparison experiment results 
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只 需要 对 各 物体 的 边界 框 进 行 计算 就 可 以 获取 场景 中 各 个 物 
这 些 结果 表明 ， 在 相同 情况 下 ， 布 局 图 作为 先 验 
信息 指导 网 络 去 生成 新 视角 图 像 要 优 于 使 用 深度 概率 密度 估 
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图 9  ShapeNet Cars 数据 集 对 比 实验 结果 
Fig.9 Shapenet Cars data set comparison experiment results 
Al 数据 集 定量 结果 
Tab. 1 Data set quantitative results 
六 法 Blender Real ShapeNet Cars 
idi SSIMÎ PSNRÎ LPIPS| SSIMT PSNRT LPIPS| SSIMT PSNRT LPIPS| FLOPs/M 
SVNVS(2021) 0.636 27.644 0.363 0.614 25.168 0.341 0.671 26.511 0.376 3577.426 
TB-networkP?(2019) 0.711 28.424 0.327 0.565 25.301 0.388 0.748 27.649 0.366 4832.501 
UORF-mainB0(2020) 0.474 28.041 0.493 0.391 24.087 0.471 0.492 27.241 0.454 2704.351 
本 文 0.783 31.640 0.287 0.702 28.398 0.293 0.794 30.367 0.295 2402.218 
3.8 ”消融 实验 正 后 的 场景 布局 图 作为 先 验 信息 指导 网 络 生 成 的 图 像 ， 生 成 
为 了 验证 所 提 模 型 中 各 个 模块 的 有 效 性 ， 在 MONVS 数 图 像 的 真实 度 提 高 了 7.9%， mo 引入 布局 图 可 以 有 效 解 
据 集 上 进行 消融 实验 。 可 视 化 结果 如 图 10 所 示 ， 在 没有 预 。 决 场景 中 的 物体 在 视角 转换 时 ， 发 生 位 置 偏 移 的 问题 。 模 型 
测 布 局 图 误差 修正 的 情况 下 训练 ， 生 成 图 像 中 各 个 物体 的 位 。 加 入 感知 损失 后 ， 生 成 图 像 的 真实 度 提高 了 58%， 生 成 图 像 
置 不 准确 ， 图 10 第 2 行 第 4 列 所 示 , 生 成 的 长 方 体位 页 的 颜色 准确 清晰 ， 解 决 了 生成 图 像 中 存在 的 伪 影 问题 ， 证 明 
锥 位 置 与 真实 RATTE 4. ARH H Jg RRR peg 了 感知 损失 在 提升 图 像 质 量 上 的 有 效 性 。 
确 的 修正 布局 图 信息 ， 指 导 网 络 生成 新 视角 图 像 。 ies 表 2 消融 实验 定量 结果 
入 感知 损失 的 情况 下 ， 场景 生成 器 生 成 的 图 像 ， 存 在 严重 的 Tab.2 Quantitative results of ablation experiments 
伪 影 现象 ， 图 10 第 3 4728 2 列 所 示 ， 在 没有 布局 图 作为 先 边界 框 感知 损失 FID} LPIPS| 
验 信息 的 情况 下 ， 生 成 的 圆锥 体 的 位 置 和 真实 图 像 存在 误差 ， X X 260.7 0.501 
并 且 生 成 的 圆锥 体 不 完整 ， 出 现 像素 丢失 的 现象 。 引 入 的 感 y X 241.5 0.316 
知 损失 保证 了 每 幅 图 像 中 物体 的 周围 没有 出 现 伪 影 。 图 10 X y 218.1 0.307 
第 4 行 第 4 列 所 示 ， 生 成 图 像 中 长 方 体 周围 存在 伪 影 。 这 是 y N 152.6 0.287 
由 于 像素 预测 器 生成 的 各 个 物体 图 像 在 场景 生成 器 的 融合 过 4 ARE 
程 中 边界 框 之 间 的 重合 (现实 场景 中 的 遮挡 ) 导 致 的 。 这 表明 iin 
感知 损失 对 图 像 的 生成 有 严格 的 约束 ， 并 且 有 效 解决 了 生成 本 文 提 出 了 一 种 以 场景 布局 图 为 先 验 信息 ， 指 导 网 络 实 
图 像 中 的 伪 影 问题 。 现场 景 新 视角 图 像 生 成 的 方法 。 通 过 不 同 输入 视角 下 的 场景 
" lp j a i 布局 图 信息 ， 计 算出 新 视角 下 的 场景 布局 图 ， 用 来 指导 网 络 
eil | ]| ]| 生成 图 像 。 解 决 了 由 于 视角 变换 导致 场景 中 物体 丢失 的 问题 ， 
n z 在 场景 生成 器 中 加 入 感知 损失 函数 ， 解 决 生成 的 各 个 物体 在 
u'o ‘eo 4 贺信 息 讲 行 集 会 时 产 和牛 的 伪 影 问题 结 H 
xsmax [UM A 根据 布局 图 信息 进行 集合 时 产生 的 伪 影 问题 。 实 验 结果 表明 ， 
: 本 文 方法 在 多 物体 的 简单 场景 下 的 新 视角 图 像 生 成 的 性 能 和 
al | | 1 图 像 质量 优 于 最 近 的 几 年 的 方法 。 然 而 ， 本 文 方法 也 有 一 些 
局 限 性 ， 首 先 所 提出 的 模型 只 能 在 环 拍 数据 中 对 场景 进行 布 
Dum Ow vy g^ er 局 图 预测 ， 其 次 ， 对 于 新 视角 图 像 中 前 景 与 背景 的 交界 处 像 
素 模糊 。 未 来 的 工作 将 利用 一 些 神经 辐射 场 的 方法 ， 提 高 模 
引入 边界 杠 LT] " T! 型 在 拍摄 不 规则 的 数据 集 上 的 泛 化 性 ， 使 模型 可 以 应 用 在 园 
引入 感知 损失 «y € r 林 等 复杂 的 户外 场景 中 。 
图 10 消融 实验 结果 
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